Определение перспективного тарифа для телеком-компании

Чтобы скорректировать рекламный бюджет, коммерческий департамент хочет понять, какой тариф приносит больше денег.

Вам предстоит сделать предварительный анализ тарифов на небольшой выборке клиентов. В вашем распоряжении данные 500 пользователей «Мегалайна»: кто они, откуда, каким тарифом пользуются, сколько звонков и сообщений каждый отправил за 2018 год. Нужно проанализировать поведение клиентов и сделать вывод — какой тариф лучше.

Ознакомление с данными

Для начала просмотрим, какие датасеты представлены на анализ, изучим тип данных, и просмотрим первые строки.

Вывод:

Первичное ознакомление с данными не дает точного представления о пропущенных и ошибочных данных. В этом пункте прочитали датасеты сохранили их в переменных, при помощи метода info() посмотрели инофрмацию о пропусках и типах данных.

Предобработка данных

Для начала приведем данные к нужному типу в таблице users, приведет дату регистрации к формату даты и времени.

Приступим к анализу таблицы calls приведем все к одному типу данных, и поработаем со значениями.Приведем дату звонка к формату даты.

Округлили длительность звонка в большую сторону, теперь можно привести их к целочисленному типу данных.

Добавим столбец с информацией о расходуемых гигабайтах.

Сосчитали информацию о количестве смс и звонков каждого клиента по месячно. Для дальнейших расчетов произведем объединение таблиц.

В одной табличке собрана информация, о всех расходуемых пакетах, связь, сообщения, интернет, теперь можно посчитать прибыль.

Создали одну результирующую таблицу, которая содержит в себе информацию, о тарифах и используемых услуг клиента. Теперь легче искать информацию, а также производить с ней операции. Пропуски в данных, говорят об отсусвии звонков или смс, в этот месяц, можем заменить их 0, для чистоты датафрейма.

Анализ данных

Построили сводную таблицу с информацией о тарифах, мы наблюдаем в таблице среднее арфметическое, стандартное отклонение и дисперсию для каждого парметра.

Выше были построенны гистограммы распределения таких параметров, как кол-во минут и смс, расходованный интрнет трафик и суммарная прибыль с пользователей. Можно сделать следующие выводы:

Проверка гипотез

Приступим к проверке гипотез, у нас их две :

  1. средняя выручка пользователей тарифов «Ультра» и «Смарт» различаются;
  2. средняя выручка пользователей из Москвы отличается от выручки пользователей из других регионов.

Для начала разберемся с первой, сформулирем нулевую и альтернативную гипотезу:

Приступим к проверке данных гипотез.

Средняя выручка пользователей двух тарифов не равна. Далее составим нулевую и альтернативную гипотезы для следующей проверки:

По проверки гипотез, можно сделать вывод, что средняя выручка пользователей двух тарифов отличается, а вот выручка пользователей Москвы и других регионов не отличается.

Общий вывод

В ходе проекта проанализировали информацию о пользователях двух тарифов. Исправили ошибки в данных и недочеты. Можем говорить о выводах полученных в результате анализа:

Для получения данных выводов, нам было необходи сгруппировать данные, объеденить необходимые парамметры для анализа, в одну таблицу, чтобы удобнее было представлять данные и обращаться к ним, перед группировкой была необходимость познакомиться с данными, привести все необходимые колонки к верному типу данных, и округлить значения, для расчетов прибыли, в соотвесвиями с условиями тарифных планов.